“草莓”现真身

调研纪要 2024年09月13日 14:04

9月13日，OpenAl宣布其最新的模型OpenAl o1（内部代号“草莓大模型”）正式发布，主打推理能力，号称能解决比以往模型更难的科学、编程和数学问题。

- 推理能力大：OpenAI 表示，o1 模型在物理、化学和生物等学科的 challenging 基准测试中，表现与博士生相当

- 数学和编程能力： 在一项国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 的正确率只有 13%，而 o1 模型的正确率高达 83%！在 Codeforces 编程竞赛中，o1 模型的成绩也达到了前 89%！

之前的市场预期：

发布时间基本符合预期：

技术关键点：RL & CoT & 慢思考换取推理能力【大幅】提升

【为什么提高？Scaling Law新范式，从预训练向后训练和推理转移】o1经过强化学习训练来执行复杂的推理，并在回答之前产生一个很长的内部思维链（CoT）。强化学习（RL）+ 思维链（CoT）在高度数据高效的训练过程中教会模型如何高效思考。随着更多的强化学习（训练时的计算）和更多的思考时间（测试时的计算），o1的性能会持续提升。这种Scaling束与LLM的预训练显著不同，Scaling中心向预训练向后训练&推理转移。

【效果：数学、物理、逻辑、代码能力“大幅”提升】AIME考试（类似美国高中生奥赛）中，GPT-4o 平均只解决了 12% (1.8/15) 的问题。o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)。【提升62%】。GPQA diamond（测试化学、物理和生物学方面的专业知识）上，o1【超过了PhD-Level】专家，并没有花1-1.5年的时间！Codeforces编程竞赛中，结果GPT-4o 为808， o1为 1807，超过 93% 的人类对手。

【对应用的影响】以编程智能体Devin为例，4o驱动下评估分25.9%，o1驱动下评估分为51.8%，再加点后续产品优化能做到74.2%！就是我们之前说的，更智能的大模型将解决killer app和agent的应用问题！等到成本进一步控制下来，killer app将更容易出现。

【对算力影响的初步定性判断】首先，大规模的Scaling Law仍然是需要的，保证模型有较好的基础性能。在此基础上，强化学习、思维链和更长的思考时间，对应了更大的后训练和推理算力消耗。初步判断算力需求上升并且幅度不小。

【使用与成本】现在开始，ChatGPT Plus 和 Team用户将能够访问 ChatGPT 中的 o1 模型【无需排队】。除了o1，还发了o1 mini，价格便宜80%。由于对算力消耗的提升，【o1-preview 的每周速率限制为 30 条消息，o1-mini 的每周速率限制为 50 条。】 API价格：o1每百万token，输入$15输出$60，4o输入2.5$输出$10，贵了快6倍。

综合以上，OpenAI o1技术的关键词：【RL（Self-Play RL）强化学习】【思维链（CoT）】。

在此催化下，今日光模块&PCB大涨。

- o1模型数理化能力超预期：

o1数理化、编码领域能力出色。o1在国际数学奥林匹克竞赛（IMO）考试中得分83%，此前GPT-4o仅解决了13%的问题，且o1在Codeforces比赛中达到第89个百分位。应用领域来看，o1所增强的推理功能可用于医疗保健行业的细胞测序数据注释、物理学领域的量子光学数学公式生成等一些列科学、编码、数学领域。

o1-mini更经济、更快速。同系列模型中，o1-mini是一种更快捷、更便宜的推理模型，擅长编码，o1-mini比o1-preview便宜80%，适用于需要推理但不需要广泛世界知识的应用程序。

o1目前为早期版本。其功能性尚不及ChatGPT如浏览网页、分析上传的文件和图像。目前ChatGPT Plus和Team用户可在ChatGPT中手动选择o1-mini和o1-preview，下周ChatGPT Enterprice和Edu用户也可访问。在启动时，o1-preview 的每周速率限制为30条消息，o1-mini 的每周速率限制为50条消息。

- o1的亮点在于在尝试解决问题时会使用思维链（CoT），具备识别和纠正错误能力，在自我内部思考时间增加时，其能力也能得到提升。这不同于传统的Scaling Law（尺度定律），后者主要关注训练过程中的参数量、数据量和计算量。我们认为此次OpenAI o1系列的发布并不仅仅是新模型的亮相，而是为未来大模型的性能开辟了新路径。

英伟达的具身团队领导者 Jim Fan 直接在 X 上点评了这一事件的历史意义——模型不仅拥有训练时的 scaling law，还拥有推理层面的 scaling law，双曲线的共同增长，将突破之前大模型能力的提升瓶颈——意味着大幅提升了对算力需求持续性。

光模块边际变化，1和5的逻辑开始兑现。光博会及光模块专家重要更新：

1、昨日和今日meta分别奔赴光模块厂家F和XC看厂并下单（XYS时间不知），预计meta总订单规模130万只800G左右（大约30%硅光），在24Q4和25Q1执行完，价格没有下降，单模800美金，而且硅光价格没有下降。

2、1.6T光模块目前XC最为领先，且预计25年大概率均是硅光（提升毛利率），而且开始阶段份额预计很高。

3、目前看N客户25年Q1的800G订单环比并没有减少。

4、1.6T的dsp主要还是用博通的，100g的eml芯片目前非常紧缺时断时续，无源、MT插芯偶尔会缺货/电芯片目前还算稳定。

5、目前XC和G客户一起在研发全光交换机（CPO不用担心了）

继续滑动看下一个

调研纪要

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

“草莓”现真身

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

“草莓”现真身

您可能也对以下帖子感兴趣